0
| 本文作者: 周蕾 | 2021-10-15 11:46 |

本周,“2021人工智能產業(yè)論壇:數(shù)據(jù)要素與隱私計算”在成都舉辦,由中國人工智能學會主辦,星云Clustar承辦。論壇上,近二十位來自人工智能、金融科技的學術界、產業(yè)界人士,圍繞隱私計算、數(shù)字金融等話題展開了深入的探討。
專家們在會上一一指出數(shù)據(jù)要素從誕生到使用、交易的各種痛點所在,并結合自身實踐經(jīng)驗給出了發(fā)展路徑的思考;金融機構、政企合作如何借此良機推動數(shù)字化進程、擺脫種種陷阱,也同樣是論壇的一大重點。
恒生電子研究院院長、原上海交易所總工程師白碩就指出,“跑馬圈數(shù)據(jù)”時代的兩大痛點,是合作難和鏈條長。解決方案是加寬加高底座,打造一個開放的生態(tài)。數(shù)據(jù)智能革命會從數(shù)字化的中臺開始,數(shù)據(jù)是基礎,中臺是關鍵場景的規(guī)劃,隱私計算是當中較為突出的技術之一。
數(shù)據(jù)容易被復制、泄露、擴散,這種特性對市場非常不利,以至于有些人認為數(shù)據(jù)的經(jīng)營和交易有可能是一個偽命題。
數(shù)據(jù)的構成也相比之前變化頗大。例如資本市場,從資訊商提供主流數(shù)據(jù)行情、上市公司標準化解決數(shù)據(jù)等,進入到非標數(shù)據(jù)分析的時代,大量的另類數(shù)據(jù)、非結構化數(shù)據(jù)出現(xiàn)。
數(shù)據(jù)生態(tài)起了根本性變化,為此有四種選擇誕生:過去互聯(lián)網(wǎng)平臺的發(fā)展模式;政府數(shù)據(jù)所謂的數(shù)據(jù)服務模式;萬德、同花順這類私有終端的傳統(tǒng)模式,單一廠家掌控所有的數(shù)據(jù)來源;數(shù)據(jù)聯(lián)盟。
傳統(tǒng)打法可能不再是主流,私有終端也未必能應對另類數(shù)據(jù)的龐大體量,聯(lián)邦化的技術發(fā)展正值窗口機遇期。
數(shù)據(jù)到場景的鏈條過長,從附加值低的裸數(shù)據(jù),轉型艱難的帶標數(shù)據(jù),再到智能化深加工的數(shù)據(jù)、場景數(shù)據(jù),各階段所需技術不同,不同技術的擁有者變成了要“分段”體現(xiàn)自己的價值。這意味著誰能打通全鏈條,就可能占據(jù)生態(tài)上的優(yōu)勢。隨著隱私計算走向成熟,機會也出現(xiàn)在了to B的聯(lián)邦化數(shù)據(jù)經(jīng)營戰(zhàn)場。
新的機會,縱向看,內容集成商對接數(shù)據(jù)到場景的舊做法,可能會演化到全棧服務商提供內容深加工的形式;橫向看,外部數(shù)據(jù)、服務會通過帶保護的方式,進入到基礎業(yè)務能力,合并形成統(tǒng)一的聯(lián)邦化中臺再對接業(yè)務。
加拿大工程院院士、加拿大皇家科學院院士楊強,則就《數(shù)據(jù)要素與聯(lián)邦學習》為主題帶來分享。他指出,數(shù)據(jù)的特點之一是增長迅猛,布置起來零成本;數(shù)據(jù)的價值屬于場景的定義,場景不同、價值不同;同時它也具有馬太效應,更容易形成壟斷。
數(shù)據(jù)分為可用和不可能,前者又細分為可見和不可見。我們如今感興趣的,實際上發(fā)展的是可用和不可見的分支上。
第一階段,上世紀七八十年代,安全多方計算,針對精確計算和數(shù)據(jù)庫查詢的隱私保護需求而提出。安全性非常強,有理論證明,效率卻非常低。
第二階段,針對效率問題,提出差分隱私概念。通過概率方法引入噪音,使得查詢方不能窺探數(shù)據(jù)庫內。缺點是不能完全保障安全,且大量增加通知量。
第三階段,集中硬件加密計劃。硬件廠商提出新的芯片,使數(shù)據(jù)進入安全加密計算,一方看不到其他方數(shù)據(jù),計算結果大家可以得到。
第四階段,聯(lián)邦學習,針對這種大規(guī)模復雜的計算多方計算而建立。
(推薦閱讀:《微眾銀行首席AI官楊強:萬字圖文詳談聯(lián)邦學習最前沿》)
機構間建模時,多數(shù)依靠特征補充來建立更好的模型。當機構和設備重疊不多時,可引入遷移學習的概念,把數(shù)據(jù)空間給遷移到一個新的空間,這多數(shù)是用在異構的數(shù)據(jù)。
還有一個重要研究方向,是激勵機制的建立。例如利用區(qū)塊鏈來記錄審計,每一個數(shù)據(jù)擁有方對整個聯(lián)合模型的貢獻。這就需要一個公平的利益分配原則,需要經(jīng)歷機制設計的過程。
應用方面,首先在金融的交叉營銷、反洗錢,可以通過聯(lián)邦學習把他們的數(shù)據(jù)聯(lián)合建筑,把模型的特征空間加以擴充,完成聯(lián)合建模;以及醫(yī)療診斷、物聯(lián)網(wǎng)、無人車網(wǎng)絡等。
總體來說,聯(lián)邦學習是多學科的交叉,包括安全合規(guī),如何防御攻擊和提升教育,如何廣泛的來進行技術應用,還有如何建立這種聯(lián)邦機制聯(lián)盟的機制,以鼓勵大家持續(xù)的為經(jīng)濟體為生態(tài)貢獻。
而隱私計算的商業(yè)模式也逐漸形成,例如平臺建設方靠硬件產品部署和提供利用項目建設的方式收費;咨詢服務商幫助大平臺進行數(shù)據(jù)價值解讀,利用數(shù)據(jù)運營等。
香港科技大學智能網(wǎng)絡系統(tǒng)實驗室主任、星云Clustar創(chuàng)始人陳凱,與清華大學金融科技研究院副院長、華控清交創(chuàng)始人徐葳也就隱私計算和數(shù)據(jù)要素兩大主題,帶來了一場深度對話。
數(shù)據(jù)保護現(xiàn)狀是否也促成了更多潛在的商業(yè)機會?對此,陳凱表示機遇與挑戰(zhàn)并存,面臨的挑戰(zhàn)首先是產品;徐葳則指出,長遠來看,挑戰(zhàn)仍然在于數(shù)據(jù)能否帶來價值。
而對于技術應用角度如何積極適應規(guī)則,陳凱表示,很難有一個技術/算法能夠最小地完成最小影響,最小范圍、最短時間;法規(guī)是在技術研究上給予約束條件,幫助推動研發(fā)和落地的進程。
當被問到隱私計算未來發(fā)展的特征,陳凱表示建立安全的數(shù)據(jù)網(wǎng)絡意義重大,如何處理大量不同機構間的異構數(shù)據(jù)、性能和規(guī)模上處理海量數(shù)據(jù)、如何讓利益共享的性能有指數(shù)級的提升,當中有許多值得努力研究的難題。
徐葳則笑稱“只有爛大街的技術才是好技術”,認為一項新技術未來的表現(xiàn),要看技術本身能否成功、使用門檻能否降低。數(shù)據(jù)源也在逐步有機生長,很多不同行業(yè)、不同地區(qū)的小平臺被建立起來交換數(shù)據(jù),如何讓這些異構平臺也增長成功、小的計算方法和技術整合起來,實現(xiàn)規(guī)模經(jīng)濟,也值得關注。
百度安全產品總經(jīng)理韓祖利也認為,數(shù)據(jù)要素呈現(xiàn)幾大趨勢特性:規(guī)模上升,類型增加,數(shù)據(jù)價值密度降低,應用場景也在泛化。
在他看來,當代數(shù)據(jù)安全的核心要義:應對強對抗的安全問題,非對抗安全和內部使用的權限、審計,隱私保護。因此一個方案如果誕生,應具備三個特點:覆蓋數(shù)據(jù)全生命周期,一體化的集中治理平臺,和合規(guī)的數(shù)據(jù)使用、流通形式。
成都大數(shù)據(jù)集團總經(jīng)理顧勤就表示,關于科學要素流通的創(chuàng)新實踐主要有三個階段:公共數(shù)據(jù)運營;整體數(shù)據(jù)流通,政府的公共數(shù)據(jù)和社會企業(yè)的數(shù)據(jù)間產生碰撞;產業(yè)數(shù)據(jù)的協(xié)同。
以第三階段為例,即產業(yè)數(shù)字化,有兩種方式:傳統(tǒng)產業(yè)的體能升級;創(chuàng)新產業(yè)的協(xié)同效應,通過系統(tǒng)的互聯(lián)、數(shù)據(jù)的交互,產生新的價值和場景。
第四范式副總裁、主任科學家涂威威,則在演講中提出這樣一個問題:傳統(tǒng)的數(shù)據(jù)安全設計,能夠覆蓋AI應用的范圍嗎?
在訓練到預測的許多環(huán)節(jié)里,都出現(xiàn)了他們預想不到的攻擊方式。多種看似正常合法、實為攻擊的手段,已經(jīng)發(fā)展頗為成熟。
例如AI公司對外提供信用卡授信模型,攻擊者可以通過不斷申請、使用授信服務,將反饋回來的數(shù)據(jù)用于“猜測”那個授信模型。如果這樣的新模型被訓練出來,攻擊者有可能就會猜到訓練集的內容,相當于數(shù)據(jù)泄露,但該過程中的行為均是合法的。
很多研究陷入了停頓狀態(tài),AI應用是一個廣大的系統(tǒng),攻擊者能以任意方式攻擊。在實際應用當中,即便這部分防住了,其他地方依然有很多的缺口。而AI相關理論目前尚未辨析清楚,如果用于引申的AI應用當中,其實際指導作用十分有限。
為此,從傳統(tǒng)IT安全角度出發(fā),從商業(yè)邏輯和可行性出發(fā),討論隱私安全是一種矛與盾的理論,要加強對攻擊者的研究。
論壇的下半場則關注數(shù)據(jù)要素與數(shù)字金融。國家金融與發(fā)展實驗室副主任曾剛,從金融機構數(shù)字化的角度切入,指出需要組織架構和數(shù)字化基礎架構的調整、創(chuàng)新;數(shù)據(jù)資產化能力和數(shù)據(jù)治理、數(shù)據(jù)營銷和運營能力、數(shù)字化風控能力,只有少部分金融機構做到了。
以前是實現(xiàn)商流,物流,資金流三流合一,這個是打造閉環(huán)模式重要的理念。但是現(xiàn)在這個閉環(huán)模式意味著對數(shù)據(jù)的壟斷,所以要打破。
最后他強調,數(shù)字化的本身并不是技術多高、計算能力多強、準確率多高等,從傳統(tǒng)金融機構角度來講,核心是服務客戶的需求。因此數(shù)字化并不是一味追求數(shù)據(jù)領先性,而是適應性,適宜性,尋找最合適的技術。
清華大學國強教授、智能產業(yè)研究院首席研究員聶再清,也提出了兩個具有挑戰(zhàn)意義的問題:
一是模態(tài)數(shù)據(jù)。如何聯(lián)系不同模塊來提升AI的認知能力,使其綜合應對實際應用的水平提升,應用好各模態(tài)間的信息?
二是多模態(tài)應用,訓練成本頗高。如何提升人機協(xié)作的效率,更多利用AI來低成本生產高質量的知識和訓練數(shù)據(jù)?
那么,在可信AI原則下,如何發(fā)揮私有數(shù)據(jù)的價值?他指出,要這些原始數(shù)據(jù)利用機器學習變成知識;通過經(jīng)濟方式共享、聯(lián)邦的方式,看到“私有財產”數(shù)據(jù)的價值,得到應有的經(jīng)濟回報。
建信金融科技創(chuàng)新實驗室總經(jīng)理王雪,分享了建設銀行和建信金科在數(shù)據(jù)和隱私監(jiān)管趨嚴的前提下,對解決路徑的思考:
一,所需要的隱私計算平臺本身的功能,一定是和場景、需求強綁定的。其開發(fā)過程需要由長激動不斷調整和驗證。
二,在此過程中,場景和生態(tài)要有相互促進,場景和運營能力的不斷提升對平臺起到反哺和教學的作用。
三,核心思想仍然是通過隱私計算能力實現(xiàn)數(shù)據(jù)價值最大化。
王雪也結合了數(shù)易聯(lián)平臺的建設,介紹了建行對該平臺的規(guī)劃細節(jié)。她表示聯(lián)邦學習也在集團內部有所應用,用于產品營銷、政務數(shù)據(jù)的融合與挖掘等。
星云Clustar的CEO陳沫也透露,他們已與建行合作搭建了一個聯(lián)邦學習的聯(lián)合建模平臺。
光大信托信息技術部副總經(jīng)理、數(shù)據(jù)中心總經(jīng)理祝世虎就指出,很多中小銀行在金融科技上落入后發(fā)劣勢,后浪可能僅學習前浪表面容易實現(xiàn)的部分;而前浪也容易陷入一套模型對所有業(yè)務、建模套路化的陷阱,模型容易失去準入效果。
他預測,未來金融科技發(fā)展會有六大方向:
深度學習算法將會被廣泛采用,隨著數(shù)據(jù)的進步,深度學習算法才會充分發(fā)揮活力;
多模態(tài)數(shù)據(jù)、非金融數(shù)據(jù)會廣泛使用;
網(wǎng)絡發(fā)展解決了反欺詐的問題,圖譜能夠識別新型欺詐,多維圖譜的不斷豐富會成為銀行的第二數(shù)據(jù)源;
聯(lián)邦學習會大規(guī)模落地;
算法的可解釋性將會被逐步重視,近兩年都集中在特征重要性的排序上。不過也不要一味追求可解釋性,智能的本質是利用算法和數(shù)據(jù),抓住那些被埋沒的不可解釋信息出來。
自動化的監(jiān)控平臺將會逐步的升級為模型風險管理平臺。
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。